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摘 要 本 文 提出 一 种 多 级 计 分 项 目下 的 个 人 拟 合 统计 量 R, 考察 它 在 检测 6 种 常见 的 异常 作答 模式 ( 作 上 星 、 猜 测 、 
随机 、 粗 心 、 创 新 作答 、 混 合 异常 ) 下 的 表现 , 并 与 标准 化 对 数 似 然 统 计量 Lp 进行 比较 。 绪 采 表 明 : (0) 在 异常 作 
答 履 盖 率 较 低 并 且 异 常 作 答 类 型 为 作弊 和 猜测 时 , R 的 检测 率 显 著 高 于 LS (2) 随 着 测验 长 度 和 被 试 异常 程度 的 增 
加 ,两 种 统计 量 的 检测 率 都 会 上 升 ; (3) 在 一 些 条 件 下 , R 与 检测 效果 接近 。 实 证 数据 分 析 进 一 步 展 示 了 R 统计 


量 的 使 用 方法 和 过 程 , 结果 也 表明 R 统 计量 具有 较 好 的 应 用 前 景 。 
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1 引言 


教育 和 心理 测量 的 主要 目的 是 获得 被 试 的 某 
种 潜在 特质 , 来 评估 和 指导 个 体 的 未 来 发 展 活动 。 
该 特质 可 以 是 学 科 领 域内 知识 和 技能 的 稳 握 情况 ， 
也 可 以 是 个 体 的 态度 、 情 绪 等 。 为 此 , 人 研究 者 广泛 
使 用 测验 或 问卷 作为 测量 潜在 特质 的 手段 。 然而 在 
实际 施 测 过 程 中 ， 几 乎 无 法 避免 地 会 有 其 他 额外 因 
系 影 啊 被 试 的 作答 反应 ， 进 而 威胁 测验 结果 的 有 效 
性 ， 如 作 整 、 低 测验 动机 等 。 不 同 于 被 试 作 答 过 程 
的 随机 误差 ,这些 因 素 往 往 能 够 导致 测量 数据 产 
生 系 统 误差 .这 类 被 试 作答 也 被 称 为 异常 作答 。 

经 上 典 测量 理论 (classical test theory，CTT) 和 项 
日 反应 理论 (item response theory, IRT) 是 常见 用 以 
估计 被 试 特质 水 平 的 理论 手段 ， 其 准确 性 依赖 于 模 
型 和 数据 的 拟 合 程度 (Hotaka，2017)， 知 直接 使 用 
存在 异常 的 作答 数据 进行 分 析 和 计算 , 得 到 的 结 
将 产生 较 大 的 偏差 .由 此 推导 出 的 结论 和 基于 结论 
做 出 的 任何 操作 (人 才 选 拔 和 六 位 安置 等 ) 也 将 不 再 
具有 参考 价值 ， 对 测验 的 很 多 方面 产生 严重 的 负面 
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影响 ， 比 如 参数 估计 (Oshima，1994; Schnipke, 1996; 
Shao et al., 2016) 、 等 值 (Wollack et al., 2003), fri 
和 效 度 (Gulliksen, 1950, p. 236; Lu & Sireci, 2007) 等 ， 
进而 最 终 导 致 测验 的 公平 性 和 准确 性 受到 损害 
(Buchanan & Smith, 1999; Glas & Dagohoy, 2007; 
Huang et al., 2015)。 许 多 人 研究 对 于 异常 作答 在 考生 
中 的 “流行 程度 ”进行 了 报告 ， 比 如 Curran 等 人 
(2010), Meade 和 Craig (2012), Rupp (2013), Shao 等 
(2016), Yu 和 Cheng (2019) 等 ， 这些 研究 中 的 异常 
作答 人 数 占 比 从 最 低 的 3.5% 到 最 高 的 50%， 以 中 
等 程度 20% 居 多 。 因 此 ,如 何 将 存在 异常 作答 模式 
的 个 体 筛 选 出 来 ,一直 是 教育 和 心理 测量 领域 所 厂 
沁 关 注 的 问题 (Schnipke & Scrams, 1997)。 
为 了 达到 上 述 目 的 , 人 研究 者 们 通过 构建 个 人 拟 
合 统 计量 (person fit statistic, PFS) 从 数据 中 挖掘 被 
WE, AMADEA o Meijer 和 Sijtsma 
(2001): PFS 划分 为 两 类 : (1) dE AIME PFS: 使 
用 被 试 的 观察 作答 数据 计算 非 参 数 统计 量 或 将 个 
体 与 团体 进行 比较 ; (2) 参数 化 的 PFS: 设 定 基 本 
的 模型 假设 ,利用 数据 进行 参数 估计 ， 构建 拟 合 
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统计 量 ， 与 零 假 设 ( 受 检 验 个 体 属 于 正常 群体 ) 下 
的 统计 量 分 布 相 比 较 ， 判断 数据 和 模型 拟 合 与 否 。 

关于 个 人 拟 合 的 研究 最 早 可 以 追溯 到 20 世纪 
40 年 代 ，Guttman (1944，1950) 综 合 被 试 的 观察 作 
答 、 估 计 能 力 、 项 目 截 断 点 (cutting point) 之 间 的 关 
A, 来 判断 其 作答 是 否 正 常 ， 这 为 之 后 的 个 人 拟 合 
研究 莫 定 了 基础 。 后 续 有 研究 者 提出 非 参 数 化 的 
PFS 如 点 二 列 相 关 和 二 列 相 关 (Donlon & Fischer, 
1968) 等 ， 虽 然 这 类 非 参 数 化 检验 方法 在 使 用 上 较 
为 便捷 ， 仅 需 对 原始 数据 进行 少量 的 计算 ,但 通常 
难以 次 度 挖 掘 数据 中 的 更 多 信息 ， 对 计算 结果 的 解 
释 不 够 明确 。 相 比 之 下 ,参数 化 的 PFS 依靠 严格 的 
数学 模型 (如 Rasch 模型 等 ), 在 一 定 的 数据 规模 下 ， 
量化 被 试 的 异常 程度 ,依照 设 定 的 严格 判别 标准 ， 
f Hs Bag esie O3], 刘 红 云 , 2018)。 进 一 步 , 参 
数 化 PFS 可 以 粗略 分 为 基于 残 差 和 基于 似 然 两 种 类 
型 .前 者 的 主体 为 观察 作答 和 期 望 作 答 之 间 的 残 差 ， 
其 建 模 思路 是 对 残 差 进行 适当 加 权 处 理 ， 如 Wright 
和 Stone (1979) 以 及 Wright 和 Master (1982) 提 出 的 
U 和 W ,分别 使 用 了 单个 项 目的 平均 条 件 方差 和 
测验 总 方差 的 倒数 作为 加 权 内 容 。 后 者 则 是 围绕 作 
答 的 似 然 来 构建 统计 量 , 例如 Levine fll Rubin (1979) 
提出 的 对 数 似 然 指 标 1, ,以 及 Drasgow 等 人 (1985) 
克服 了 1 分 布 缺 陷 而 提出 的 标准 化 对 数 似 然 指标 忆 o 

当前 , 个 人 拟 合 检验 的 研究 主要 集中 在 二 级 
(0-1) 计 分 的 背景 下 ,然而 在 实际 教育 和 心理 评估 
测验 中 存在 大 量 多 级 计 分 的 数据 ， 例 如 ,混合 测验 
中 的 主观 题 , 或 心理 测验 中 党 使 用 的 李 克 特 型 
(Likert-type) 量 表 问 卷 。 与 二 级 计 分 的 项 目 相 比 , 多 
级 计 分 项 目 能 够 提供 更 多 的 信息 ， 只 需要 更 少 的 题 
目 就 能 达到 和 较 多 二 级 计 分 项 目 同样 的 测量 精度 
(van der Ark, 2001)。 多 级 计 分 下 的 参数 化 PFS 主要 
有 Wright 和 Masters (1982) 提 出 的 标准 化 加 权 均 方 
残 差 统计 量 v, 以 及 Drasgow 等 (1985) 提 出 的 多 级 
标准 化 对 数 似 然 指 标 1, 。 但 以 上 两 种 个 人 拟 合 统计 
各 标 存在 一 些 缺 聊 : (1) Rogers 和 Hattie (1987) 指 出 
v 对 异常 作答 模式 的 分 类 并 不 敏感 ,本 研究 在 预 实 
验 阶 段 也 证 明了 其 较 差 的 检测 能 力 , 因此 的 实用 
价值 十 分 有 限 。 (DIF p 而 言 ， 它 拥有 较 好 的 标准 
化 分 布 形态 ， 和 较为 优秀 的 综合 检验 效果 , 但 是 在 
实际 应 用 中 ,研究 者 往往 更 关心 低能 力 者 的 异常 高 
能 力 表现 , 这 是 因为 高 风险 测验 的 结果 往往 能 够 带 
来 利害 影响 , 被 试 的 异常 高 能 力 表现 通常 意味 着 发 
生 了 诸如 试题 泄露 、 考 生 作 浆 等 较为 严重 的 测验 安 
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全 事故 ; 与 之 对 应 的 , 高 能 力 者 的 异常 低能 力 表现 
一 般 是 由 于 被 试 个 人 原因 如 疲劳 、 加 速 作答 等 个 体 
因素 造成 的 。 因 此 , 为 了 更 好 地 维护 测验 安全 , 我 
们 有 需 一 种 针对 异常 高 能 力 敏感 的 多 级 计 分 PFS。 
2 多 级 计 分 模型 及 拟 合 统计 量 
2.1 多 级 计 分 IRT 模型 

人 研究 者 提出 了 多 种 用 以 处 理 多 级 计 分 数据 的 
IRT 模型 ， 如 等 级 反应 模型 GRM (graded response 
model; Samejima, 1969) 和 分 部 评分 模型 PCM 
(partial credit model; Masters, 1982) 等 。 本 文 使 用 的 
是 GRM, 其 研究 结果 同样 可 以 推广 到 其 他 模型 如 
PCM 等 多 级 计 分 模型 中 , 人 研究 者 可 以 根据 应 用 情 
景 进行 选择 。 

在 GRM 中 , 单个 项 目 包 含 一 个 区 分 度 参数 和 多 
个 等 级 难度 参数 。 定 义 X; 表示 被 试 在 项 目 j 上 的 
ER, KRIDE j WME, W X; €{0L....K}, 
用 9 表示 被 试 的 潜在 特质 水 平 ，aj M bj 分 别 表示 
项 目的 区 分 度 和 难度 ， 且 b; = (bb bx) 。 对 于 
每 一 个 难度 by ,被 试 都 存在 一 定 概率 P» (0) 获得 
k 及 以 上 的 评分 ， 此 时 可 以 用 二 参数 逻辑 斯 带 克 模 
型 进行 描述 : 


* 1 
Pix (8) = 1 Le 170,055) 2 


由 于 单个 Pi 只 能 表示 获得 该 评分 等 级 及 以 上 
的 概率 , 为 了 细 化 每 一 个 评分 等 级 的 概率 ， 需 要 将 
相 邻 难度 对 应 的 概率 值 Pi 与 Pra 相 减 ,可 以 得 到 
被 试 在 项 目 j 上 恰好 获得 K 评 分 等 级 的 概率 : 


Pa = Pipi — Py (2) 


特别 地 ,对 于 第 一 个 评分 等 级 , 被 试 获 得 该 评 
分 的 概率 Pi =1- Ph o 

假设 某 项 目的 满分 为 4 分 , 即 有 5 个 评分 等 级 
(0,1,2,3,4)， 此 时 ,被 试 获得 每 个 评分 等 级 的 概率 
如 下 所 示 : 


Pi(X;=0|0)=1- 


" 1 ] 
P(X; =1|8)= 14 e72 Cn) 7 1 e 17020 O-bja) 
" 1 ] 
P(X; =2|0)= | e 17020; Ob ja) lae 7020075) ©) 
1 1 


Pj; 7318) = OO 


: 1 
Ps (X, = 410) = — ruso 
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2.2 wb 统 计量 
Wright 和 Master (1982) 提 出 了 一 种 标准 化 加 权 
均 方 残 差 统计 量 v， 其 表达 式 如 下 : 


M K 
> [Xi -> k* P OP 
| — = (4) 
> Š (k -E(X G0) Py.) 
k=0 


j=1 
K 

E(X ||0) = > k* P4.(0) (5) 
k=0 


其 中 ，M 为 项 目 个 数 ，K AME, Xj 表示 
被 试 在 项 目 j 上 的 得 分 ，Pi(0) 表示 能 力 为 6 的 被 
试 在 项 目 j 上 恰好 获得 k 评 分 的 概率 ，E(X ,|0) 表 
示 被 试 的 期 望 得 分 。 

在 本 文 所 关注 的 异常 作答 条 件 下 ,我 们 的 预 实 
验 表 明 v 缺 乏 足 够 的 检验 性 能 ， 因 此 后 续 模 拟人 研究 
不 考虑 使 用 uv 作为 比较 对 象 。 

2.3 LAWS 

对 数 似 然 统 计量 1 最早 是 在 二 级 计 分 下 提出 
(Levine & Rubin, 1979), 多 级 计 分 下 ，Drasgow 等 
(1985) 在 lo 的 基础 上 进行 了 标准 化 处 理 ， 得 到 标准 
化 对 数 似 然 统 计量 1, ， 并 且 推 导 了 适用 于 多 级 计 分 
的 1,。 对 于 某 被 试 在 测验 上 的 作答 反应 模式 针 = 
UG X2 Xm} ， 对 数 似 然 函数 1 的 表达 式 如 下 : 

M K 


|, =In[L(6)] = yd a(x j = KP, (0) (6) 


j=l k=0 


LO) WWR PBL, dC) 为 指示 函数 ， 表 示 当 满 
足 括 号 内 条 件 时 取 1, 否则 为 0。X; 表示 被 试 在 
THA j 上 的 观测 得 分 ，Pi(0) 表示 被 试 在 项 目 ) 上 
恰好 获得 k 评 分 等 级 的 概率 ,对 1 进行 标准 化 可 以 
得 到 : 


E 
a= Nard) 
其 中 ，E(1,) 和 Var(l,) 分 别 表示 1 的 期 望 和 方 

2, 表达 式 如 下 : 


(7) 


M K 
E(l,) = 5» Py (0) In Ej, (9) (8) 
j=l k=0 
M K K Pi (0) 
Var(1,) = > > Pit (9)Ph(9)In P; (8) In (9) 
j=1 Lk=0h=0 Pin (9) 


Lp EXT 1, 的 标准 化 结果 ,具有 恨 好 的 分 布 形 
仿 ( 渐 进 正 态 分 布 )， 相 较 于 大 部 分 PFS, 各 类 实验 
条 件 下 都 能 够 拥有 和 较 好 的 检验 性 能 (Karabatsos,， 
2003), Nering (1995) 将 其 称 为 “最 具 前 景 的 PFS”. 
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使 用 模拟 实验 对 已 有 的 PFS 进行 性 能 比较 时 ， 
我 们 发 现 ， 基 于 残 差 的 PES 在 异常 高 能 力 (作弊 SE 
运 猜 测 ) 检 测 中 具备 一 定 优 势 , 这 与 Karabatsos (2003) 
的 研究 结果 一 致 。 为 了 解释 该 种 现象 ,我 们 分 析 了 
不 同 PFS 在 多 级 计 分 背景 下 的 构建 思路 ,结果 表明 ， 
基于 残 差 的 PFS 具有 对 更 高 评分 等 级 的 敏感 性 。 基 
于 此 , 本 研究 在 多 级 计 分 IRT 框架 下 ， 对 基于 残 差 
的 参数 化 统计 量 进 行 拓展 ,开发 了 一 种 对 异常 高 能 
力 敏 感 的 个 人 拟 合 统计 量 R。 

构建 基于 残 差 拟 合 统计 量 的 中 心思 想 是 量化 
观察 反应 模式 和 理想 反应 模式 之 间 的 差异 。 理想 反 
应 模式 是 指 给 定 了 各 模型 参数 (如 能 力 、 难 度 、 区 
分 度 等 ) 后 , 严格 依据 反应 函数 的 概率 分 布 产生 的 
反应 模式 ， 被 试 会 更 容易 在 相对 自身 高 难度 的 项 目 
上 获得 低 分 ,反之 在 相对 自身 低 难度 的 项 目 上 获得 
高 分 。 不 拟 合 的 作答 模式 必然 会 与 理想 反应 模式 之 
间 存 在 较 大 的 偏差 (Meijer & Sijtsma，2001)， 这 种 
偏差 可 以 作为 判断 异常 的 依据 。 为 了 更 准确 地 计算 
残 差 ,使 用 期 望 得 分 代表 理想 反应 。 令 X 表示 被 试 
在 项 目 j 上 的 观察 作答 ，E(X |0) 为 期 望 得 分 ， 此 
时 被 试 的 单个 项 目 得 分 残 差 r = X; — E(X ||6), HR 
据 公 式 (5) 可 以 进一步 分 解 为 : 

K 
rj =X j-E(X|0) - 5 k*d(X;=k)- 
k=0 


K K 
Sk # Px (0) = Vk*[ax;-1)-P4,0| (10) 
k=0 k=0 


这 里 K 表示 项 目 j WWM, dC) WIER KA, 
满足 条 件 时 取 1, 否则 为 0。Px(9) 表示 被 试 在 项 目 
j 上 恰好 获得 k 评分 等 级 的 概率 。 对 单个 项 目的 残 
差 而 言 ， 可 以 拆 分 为 k 计 分 等 级 下 ,指示 函数 与 概 
率 差 值 的 加 权 求 和 。 观 察 公 式 (10) 发 现 ， 每 个 计 分 
等 级 差 值 的 权重 是 得 分 k ， 所 以 随 着 k 的 增 大 , 该 
项 的 权 也 就 越 大 。 正 常情 况 下 , 被 试 的 作答 应 该 接 
近 概 率 分 布 中 最 高 的 几 个 计 分 等 级 ， 对 应 的 残 差 求 
和 应 该 偏 小 ; 而 对 于 存在 异常 的 被 试 作答 ， 残 差 将 
会 显著 偏 高 ,， 特 别 是 异常 高 能 力作 答 ， 高 的 计 分 等 
级 赋予 了 该 部 分 残 差 更 大 的 权重 。 因 此 ， 基 于 残 差 
的 统计 量 在 构建 基础 上 具有 对 异常 高 能 力 表 现 的 
敏感 性 。 

但 是 仅 考 虑 残 差 本 身 ， 并 不 足以 体现 每 个 项 目 
之 间 可 能 存在 的 差异 , 例如 对 同一 个 被 试 而 言 ， 在 
不 同 参数 的 项 目 上 应 具有 不 同 的 得 分 概率 分 布 。 因 
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此 ， 即 使 两 个 项 目 上 得 分 的 残 差 相同 ， 也 不 应 该 将 
二 者 划 上 等 号 ,参考 Snijders (2001) 的 研究 ,一 个 常 
见 的 做 法 是 对 残 差 添加 权重 函数 wj(9) ， 它 能 够 综 
合 项 目 和 被 试 特点 ， 让 残 差 项 在 统计 量 中 具有 更 合 
理 的 贡献 。 

权重 函数 的 基本 思路 是 放大 “可 疑 * 的 部 分 , Hü 
小 相对 正常 的 部 分 ， 以 此 来 实现 对 异常 的 高 敏感 
性 。 例 如 , 被 试 在 项 目 上 获得 了 与 期 望 得 分 接近 的 
分 数 ， 此 时 的 加 权 函 数 应 当 略 小 , 才能 将 正常 作答 
数据 对 统计 量 的 贡献 降低 ; 反之 , 如果 被 试 在 项 目 
上 获得 了 显著 偏离 期 望 得 分 的 分 数 , 这 部 分 数据 的 异 
常 影响 应 当 在 统计 量 中 得 到 放大 。 因 此 , 参考 Masters 
和 Wright (1997) 使 用 的 标准 化 残 差 和 Yu 和 Cheng 
(2019) 使 用 的 加 权 残 差 , 将 权重 函数 定义 如 下 : 


K -1 
«- [Ya -oem (11) 
k=0 


这 样 的 设置 下 ,权重 函数 的 大 小 取决 于 实际 得 
分 的 理论 概率 值 。 此 概率 越 大 , 说 明 被 试 的 作答 是 
相对 正常 的 ,因为 其 遵循 了 得 分 概率 分 布 ; 概率 越 
小 ,说 明 被 试 的 作答 越 异 常 。 所 以 ，wi(9) 在 正常 情 
况 下 偏 小 , 在 异常 情况 下 偏 大 。 

另外 , 加 权 残 差 统 计量 是 通过 累加 全 体 项 目 来 
体现 被 试 的 异常 程度 。 由 于 被 试 在 测验 中 可 能 存在 
混合 类 型 的 异常 作答 行为 ,如 在 部 分 项 目 上 作 浆 ， 
同时 在 测验 尾部 加 速 作答 。 导 致 高 能 力 表现 的 异常 
项 目 残 差 和 低能 力 表现 的 异常 项 目 残 差 相互 抵消 ， 
在 一 定 程度 上 影响 检测 力 。 为 了 避免 这 种 情况 ， 最 
大 限度 发 挥 统计 量 的 检测 效果 ， 需 要 对 异常 进行 积 
累 处 理 。 

在 实际 应 用 中 ,被 试 的 真实 能 力 值 6 往往 无 从 
得 知 ， 需 要 用 估计 值 6 替代 。 对 于 存在 异常 的 被 试 ， 
6 和 E(X jÒ 偏离 的 方向 相同 ,这 会 导致 计算 时 的 残 
差 必然 小 于 理论 值 , 例如 , 某 低能 力 被 试 (9 = -2 ) 在 
测验 中 作弊 ,导致 高 估 其 能 力 (6 =1), 在 该 被 试 涉 及 
作 浆 的 某 个 项 目 上 , 观测 得 分 成 -K, 由 于 EQGÓ) > 
E(X,|0), W[X,-E(X,|6)]<[X,-E(X ,|6)] 。 这 对 
统计 量 的 检验 效果 是 不 利 的 ， 因此， 本 人 研究 采用 
取 绝 对 值 来 实现 残 差 的 积累 。 定 义 R 的 表达 式 
如 下 : 


K 
MN SCIC LEO) 


M 
R- Sri|*w, (©) -> (2) 
请 > dQCG -k)* PO) 
k=0 
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由 于 计算 出 的 期 望 得 分 往往 是 非 整数 ， 所 以 即 
使 是 完全 正常 的 被 试 ， 其 在 测验 上 的 残 差 累积 和 也 
几乎 不 可 能 为 零 。 在 理想 情况 下 , R 将 会 控制 在 一 
个 较 小 的 范围 内 ， 相 对 应 的 ， 异 篆 反 应 模式 下 的 R 
将 会 显著 侦 离 零 分 布 ( 零 假 设 条 件 下 的 统计 学 分 
布 )。 这 也 是 依靠 PFS 检验 异常 被 试 的 依据 TE 
aye TRINA Bn, Wie A Iu] —2 RAN 
截断 点 , 来 判断 受 检验 被 试 的 R 是 否 处 于 接受 域 
内 。 由 于 尺 是 加 权 残 差 取 绝对 值 后 的 累加 和 ， 其 大 
小 体现 了 作答 模式 的 拟 合 程度 ,所 以 在 进行 假设 检 
验 时 ,使 用 的 是 分 布 右 侧 的 单 侧 概率 。 需 要 注意 的 
是 ， 当 考生 的 观测 得 分 中 存在 异常 数据 时 ， 基 于 此 
观测 得 分 进行 项 目 参 数 和 被 试 参 数 的 联合 估计 ， 会 
HH elc Ww" (masking effect; Fung, 1993; Yuan & 
Zhong, 2008), BU 5: FY Re EE EE Dx SR 
估计 , 进而 降低 其 被 检测 出 的 可 能 性 ,这 不 利于 比较 
R 和 1 的 表现 。 因 此 ， 本 研究 中 的 模拟 实验 考虑 在 
已 知 项 目 参数 时 ， 比 较 它 们 的 表现 。 


4 ”模拟 实验 


模拟 研究 的 主要 目的 是 为 了 检验 ROW 
试 群体 的 检测 能 力 ， 为 此 我 们 需要 一 个 相对 良好 的 
比较 对 象 , 来 直观 地 展现 R 的 优势 和 特点 。 鉴 于 Lp 
拥有 优良 的 综合 性 能 ， 受到 人 研究 者 的 广泛 关注 (de 
la Torre & Deng, 2008; Sinharay, 2016)。 故 本 人 研究 选 
取 1, 作 为 比较 对 象 ,并 以 此 开展 了 3 项 研究: 研究 
1 在 零 假 设 条 件 下 , 模拟 正常 作答 群体 ,获得 R 和 
1 于 不 同 测 验 长 度 下 的 统计 学 分 布 , 同时 为 后 续 的 
人 研究 2 提供 了 基础 ; 研究 2 通过 模拟 被 试 可 能 存在 
的 不 同 异 常 测验 情境 , 使 用 R 和 1 对 数据 进行 检测 ， 
并 基于 虚 警 率 和 检测 率 来 评价 ; 最 后 将 R 应 用 于 实 
证 数据 分 析 ， 观 察 其 表现 。 

使 用 PES 进行 拟 合 检验 的 基础 是 获取 零 分 布 , 
对 于 1 等 经 过 标准 化 的 PFS, 仍然 需要 并 愤 对 待 。 
Sinharay (2016) 发 现 ，1,(0) 并 非 服 从 渐进 标准 正 态 
分 布 ; van Krimpen-Stoop 和 Meijer (2002) 的 研究 表 
明 ， 当 测验 长 度 较 小 时 (如 20, 30), 1 的 分 布 呈 负 偏 
态 分 布 。 考 虑 到 实际 情境 中 使 用 的 是 被 试 能 力 估 计 
值 6 ， 因 此 可 以 认为 思 并 不 服从 标准 正 态 分 布 。 在 
1 截断 点 的 选取 上 , 不 能 直接 照搬 标准 正 态 分 布下 
的 特定 值 ,为 了 探寻 和 比较 R 和 1 在 多 级 计 分 测验 
中 的 异常 探测 能 力 ， 本 文 设计 以 下 模拟 研究: 人 研究 
1, 得 到 R 和 1 的 分 布 和 临界 值 ,研究 2, 计算 和 比 
较 R 和 ,的 虚 警 率 与 检测 率 。 
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41 研究 1: R 和 的 分 布 及 临界 值 

本 研究 使 用 的 多 级 计 分 模型 是 GRM, 参考 许 
多 已 有 多 级 计 分 的 研究 (如 : 陈 青 等 , 2010; 程 小 扬 
等 , 2012; Dodd et al., 1995; Emons, 2008; ZEfE, J 
WR, 2018; Sinharay, 2016)， 使 用 的 记分 等 级 均 为 
5 等 。 构 建 4 种 长 度 条 件 下 的 测验 , 包含 20、40、 
60、80 个 项目 , 分 别 代 表 短 、 中 、 较 长 、 长 测验 。 
单个 项 目 内 的 难度 参数 从 标准 正 态 分 布 中 选取 ,并 
按照 升序 排列 ; 区 分 度 参 数 从 均值 为 0, 标准 差 为 
1 的 对 数 正 态 分 布 中 选取 (Xiong et al., 2020; AEH 
华 55.2018). 每 个 长 度 条 件 下 , 模拟 10000 名 能 
值 9 服从 标准 正 态 分 布 的 被 试 参 加 测验 ,根据 GRM 
得 到 模拟 被 试 的 得 分 分 布 , 生成 观测 得 分 。 

计算 1, 和 R 的 分布 时 ,本 人 研究 基于 已 知 项 目 参 
数 ， 以 及 被 试 能 力 的 估计 值 9。 这 是 因为 在 实际 测 
验 中 , 项 目 一 般 经 过 了 精心 的 编制 和 多 次 的 施 测 ， 
可 以 认为 , 项 目 参数 得 到 了 校准 ,是 已 知 的 ,这 与 
Shao 等 (2016) 和 Sinharay (2016) 的 做 法 相同 。 另外， 
由 于 项 目 参 数 已 知 ， 因此 一 类 错误 率 和 检验 力 不 会 
随 着 待 测 数据 样本 中 的 被 试 人 数 的 改变 而 受 影响 
(Sinharay, 2016)。 为 了 将 研究 结果 更 好 地 推广 到 真 
实 的 测验 情境 中 , 本 研究 使 用 能 力 估 计 值 6 来 进行 
后 续 的 人 研究， 估计 方法 为 期 望 后 验 估计 (expected a 
posteriori, EAP)， 其 表达 式 如 下 : 


M=20 


0 
0 100 200 300 400 
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LO) 为 似 然 函 数 ，f(0) 为 9 的 概率 分 布 密度 
函数 。 相 较 于 极 大 似 然 估计 (maximum likelihood 
estimate, MLE), EAP 利用 了 被 试 群体 的 先 验 信息 ， 
在 一 定 程度 上 能 够 提高 估计 精度 。 当 先 验 信息 不 明 
确 时 ， 可 以 适当 放宽 先 验 分 布 , 采用 部 分 信息 先 验 
或 改 用 MLE- 

it LI R B xe ATA, 二 者 均 在 单 侧 反 映 拟 
合 程 度 ， 区别 在 于 L, 越 小 说 明 越 不 拟 合 ,，R 越 大 说 
明 越 不 拟 合 。 因 此 在 截断 点 的 选取 上 , 设置 一 类 错 
误 率 分 别 为 1%、2.5%、5%， 选取 了 1 分 布 的 第 1、 
2.5. 5 百 分 位 数 和 RR 分 布 的 第 99、97.5、95 百 分 
位 数 。 

图 1 和 图 2 分 别 给 出 了 R 和 ,的 经 验 分 布 。 
经 过 正 态 性 检验 和 偏 度 计算 , R 统计 量 呈 正 偏 态 分 
fg, Lop 则 是 呈 负 偏 态 分 布 。 表 1 展示 了 这 两 种 统计 
量 在 不 同 测验 长 度 下 ,给 定 显著 性 水 平 性 上 的 经 验 
临界 值 。 可 以 发 现 , p 在 不 同 项 目 长 度 下 的 临界 值 
相近 ,这 是 1 公式 标准 化 建构 的 结果 ,而 RR 的 临界 
值 会 随 着 项 目 长 度 增 加 而 不 断 增 大 , 这 是 因为 R 是 
由 多 项 非 负 加 权 残 差 累加 得 到 , 项 目 数量 越 多 , R 
也 会 越 大 。 


(13) 
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图 2 Lp Sib tk AK BEN 20, 40, 60, 80 个 项 目下 的 分 布 


表 1 1,, 和 R 在 测验 长 度 为 20, 40, 60, 80 项 目下 的 截断 
点 值 a = 0.05, a = 0.025, a = 0.01 ( 单 侧 ) 


项 目 数 一 类 错误 率 R (UB) I; (LB) 
20 0.01 706.9 ~2.215 
0.025 416.2 -1.770 

0.05 282.9 -1.399 

40 0.01 1057.4 ~2.176 
0.025 691.9 -1.760 

0.05 519.6 -1417 

60 0.01 1407.7 35155 
0.025 949.2 pi 

0.05 730.4 -1.383 

80 0.01 1904.7 25.159 
0.025 1278.3 -1.738 

0.05 983.6 -1.411 


ik: UB, LB 代表 upper bound 和 lower bound， 即 上 限 值 和 下 


限 值 。 


4.2 ”研究 2: R 统计 量 和 L, Hes 

在 获得 了 各 种 测验 长 度 下 ,正常 被 试 群体 的 
PFS 分 布 后 , 依靠 设 定 不 同 的 一 类 错误 率 , 可 以 得 
到 对 应 的 临界 值 。 研 究 2 中 的 项 目 参 数 与 研究 148 
同 ,区别 在 于 加 入 了 部 分 受 异 常 因 系 影 响 的 被 试 。 

异常 的 测验 行为 可 能 以 多 种 方式 表现 出 来 , 例 
如 作 深 ,题目 预知 ， 低 测验 动机 每 (Meijer & 
Sijtsma, 2001; Rupp, 2013)。 参 考 Karabatso (2003), 
Doval 和 Delicado (2020) 的 研究 中 关于 异常 被 试 的 
模拟 条 件 , 我 们 设 定 了 几 种 多 级 计 分 下 的 异常 作答 


情况 , FLITE OPE REQ SE iz Fy Ml @ B BL TE AES DER D) 
创造 性 作 管 (@) 混 合 ,其 定义 和 操作 定义 如 表 2 所 示 。 
主要 可 以 总 结 为 以 下 几 类 : (D) 低 能 力 者 的 异 稼 高 能 
IROD); (2) 高 能 力 者 的 异常 低能 力 表现 ((49 
(5); (3) 广 泛 存在 的 随机 作答 表现 @@) ,需要 注意 的 是 ， 
实验 中 模拟 的 异常 类 型 并 不 能 够 完全 代表 现实 中 
可 能 出 现 的 情况 ,主要 目的 是 体现 上 述 3 种 异常 类 
型 ， 因 此 对 其 命名 和 定义 的 解读 应 当 谨慎 。 

PID AY Fe ds (EA H m = pxM,M 为 测验 长 
度 。 将 异常 程度 p TEA A ee | ASE, aS 
T 0.1, 0.25, 0.5 (代表 低 程 度 ， 中 等 程度 ， 高 程度 )， 
整个 研究 共有 4x6x3=72 种 实验 条 件 组 合 ， 每 种 实 
验 条 件 下 模拟 3000 名 被 试 参加 测验 , 重复 100 次 。 
对 于 异常 行为 在 考生 中 的 “流行 程度 ”, 我们 参考 已 
有 研究 (Curran et al, 2010; Meade & Craig, 2012; 
Rupp, 2013; Shao et al., 2016; Yu & Cheng, 2019), 
将 异常 被 试 在 群体 中 的 占 比 设 定 为 20%。 

由 于 本 研究 的 主要 目的 是 比较 两 种 统计 量 对 
于 异常 作 管 行为 的 检测 能 力 ， 故 考 察 在 项 目 参 数 已 
知 的 情况 下 它们 的 表现 ， 这样 异常 被 试 的 多 少 不 会 
对 项 目 参 数 产生 影响 ,考生 因 异 常 行为 导致 的 能 
一 作答 不 拟 合 将 会 更 好 地 通过 PFS 表现 出 来 ,一 日 
被 试 的 PES 超过 了 临界 值 (1 (1,R) R')， 就 将 该 被 
试 标 记 为 异常 。 检测 率 的 定义 是 标记 为 异常 的 被 试 
Hr SEA EGAL, 同时， 虚 管 率 也 将 在 结 采 中 标 
注 出 来 ,其 值 为 错误 标记 的 正常 被 试 比例 。 由 于 项 
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日 参数 不 会 随 着 异常 被 试 人 数 的 变化 而 产生 影响 ， 
虚 警 率 会 相当 接近 临界 值 对 应 的 一 类 错误 率 。 实验 异常 作 
结果 如 表 3 到 表 6 所 示 。 类 异种 
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方面 ,在 测验 长 度 为 20， 异常 程度 低 ( 即 受 
管 行为 影响 的 题目 百分比 为 10%) 时 , R 对 各 


行为 的 检验 力 部 比 Lip Ber, 平均 高 出 17.6%; 


从 表 3 到 表 6 我 们 可 以 发 现 , 实际 的 虚 警 率 和 
事先 设 定 的 一 类 错误 率 十 分 接近 ,这 是 因为 临界 值 
是 从 正常 被 试 群体 中 选取 的 , 所 以 该 群体 分 布 中 仍 
然 有 部 分 极端 个 案 会 超过 临界 值 ， 导 致 被 错误 判定 
为 异 第 ， 理论 上 该 部 分 被 试 的 比例 与 临界 值 对 应 的 
一 类 错误 率 是 一 致 的 。 


异常 程 


而 当 异 和 党 程度 达到 中 等 或 高 ( 即 受 异常 作答 行为 影 
响 的 题目 百分比 为 25% 和 50%) 时 ,两 者 的 平均 检 
测 率 几 乎 相同 ; 在 测验 长 度 为 40， 异常 程度 低 时 ， 
R 对 各 类 异常 行为 的 检验 力 平均 高 出 Lll.29e, 在 


度 达 到 中 和 高 时 ， 二 者 的 平均 检测 率 相当 接 


近 : 当 测 验 长 为 60 时 ,， 低 异常 程度 时 ，R 对 各 类 异 


操作 定义 


随机 挑选 低能 力 被 试 (0 < Z.375) ,在 难度 最 高 的 前 n 个 项 
目 上 获得 满分 

随机 挑选 低能 力 被 试 (0 < Z.375) ， 在 难度 最 高 的 前 n 个 
THEA, A 0.2 的 概率 获得 满分 , 0.8 的 概率 维持 原作 答 


随机 挑选 被 试 ， 随机 抽取 n BL, A 0.8 的 概率 得 0 分 , 0.2 
的 概率 维持 原作 答 

随机 挑选 高 能 力 被 试 (0 < Z.625) ， 在 难度 最 低 的 前 n 个 
HEHE, Æ 0.8 的 概率 获得 0 分 , 0.2 的 概率 维持 原作 答 
随机 挑选 高 能 力 被 试 (0 < Z.62$) ， 在 难度 最 低 的 前 n 个 
项 目 上 获得 0 分 


表 2 异常 的 测验 行为 定义 及 其 操作 定义 

异常 类 型 定义 

JE 能 力 较 低 的 被 试 在 平均 难度 较 高 的 项 目 上 获得 满分 

幸运 猜测 能 力 较 低 的 被 试 在 平均 难度 较 高 的 项 目 上 依靠 猜测 获 
得 满分 

随机 作答 所 有 能 力 范围 内 的 被 试 都 有 可 能 出 现 ， 有 一 定 概 率 获 
得 0 分 

粗心 能 力 较 高 的 被 试 在 平均 难度 较 低 的 项 目 上 有 一 定 概 率 
获得 0 分 

创造 性 作答 ”能 力 较 高 的 被 试 在 最 容易 的 项 目 上 获得 0 分 

混合 将 以 上 异常 情况 进行 混合 


以 上 5 种 情况 各 占 异 常 被 试 总 体 的 五 分 之 一 


iE: (0 <2.375) 表示 能 力 由 低 到 高 排序 的 前 37.5%, 0 > 2.625 表示 能 力 由 低 


到 高 排序 的 后 37.5%。 


表 3 测验 长 度 为 20 个 项 目 时 R 和 ,的 一 类 错误 率 和 检测 率 
"— EE E) USED 
类 型 ”一 类 错误 率 |i Es 检测 率 |i Es 检测 率 虚 警 率 检测 率 
R l5 R ls R 1,, R hy R lip R m 
i 0.01 0.010 0.011 0.499 0.224 0.009 0.011 0.592 0.937 0.010 0.010 0.714 0.994 
0.025 0.004 0.026 0.729 0.400 0.023 0.026 0.827 0.973 0.024 0.026 0.901 0.998 
0.05 0.049 0.052 0.889 0.581 0.047 0.051 0.957 0.989 0.048 0.052 0.972 1 
幸运 0.01 0.010 0.011 0.124 0.031 0.009 0.011 0.230 0.096 0.010 0.011 0.457 0.295 
i il 0.025 0.005 0.026 0.196 0.067 0.024 0.026 0.362 0.165 0.024 0.026 0.579 0.396 
0.05 0.049 0.052 0.262 0.119 0.048 0.052 0.472 0.243 0.048 | 0.052 0.673 0.487 
随机 0.01 0.010 0.010 0.138 0.068 0.010 0.010 0.181 0.205 0.010 0.011 0.173 0.387 
作答 0.025 0.005 0.025 0.201 0.120 0.025 0.025 0.272 0.279 0.025 0.026 0.321 0.465 
0.05 0.050 0.050 0.270 0.185 0.050 0.050 0.363 0.354 0.051 0.051 0.463 0.535 
粗心 0.01 0.010 0.011 0.826 0.491 0.009 0.011 0.832 0.887 0.009 0.011 0.646 0.995 
0.025 0.024 0.026 0.914 0.632 0.025 0.026 0.952 0.934 0.024 0.026 0.907 0.998 
0.05 0.050 0.051 0.946 0.736 0.051 0.052 0.985 0.961 0.050 0.052 0.989 0.999 
创造 性 0.01 0.009 0.011 0.922 0.704 0.010 0.011 0.839 0.998 0.009 0.011 0.653 1 
作答 0.025 0.024 0.026 0.989 0.854 0.025 0.026 0.966 1 0.025 0.026 0.957 1 
0.05 0.050 0.052 0.999 0.939 0.051 0.052 0.995 1 0.050 0.051 0.997 1 
混合 0.01 0.000 0.010 0.459 0.299 0.010 0.011 0.464 0.600 0.010 0.012 0.430 0.659 
0.025 0.025 0.025 0.552 0.405 0.025 0.026 0.585 0.638 0.025 0.028 0.596 0.688 
0.05 0.050 0.051 0.615 0.495 0.051 0.051 0.661 0.669 0.051 0.054 0.678 0.715 


幸运 


ERU 


随机 
作答 


粗心 


创造 性 


幸运 
猜测 


随机 
作答 


粗心 


创造 性 
作答 


临界 值 对 应 


一 类 错误 率 


0.01 
0.025 
0.05 
0.01 
0.025 
0.05 
0.01 
0.025 
0.05 
0.01 
0.025 
0.05 
0.01 
0.025 
0.05 
0.01 
0.025 
0.05 


临界 值 对 应 


一 类 错误 率 


0.01 
0.025 
0.05 
0.01 
0.025 
0.05 
0.01 
0.025 
0.05 
0.01 
0.025 
0.05 
0.01 
0.025 
0.05 
0.01 
0.025 
0.05 
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Ev 三 
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表 4 测验 长 度 为 40 个 项 目 时 R 和 1 的 一 类 错误 率 和 检测 率 


异常 程度 低 (0.1) 异常 程度 中 (0.25) 异常 程度 高 (0.5) 
警 率 检测 率 虚 警 率 检测 率 |i Es 检测 率 

P R 网 R ls R b R lp R be 
0.01 0.589 0.326 0.009 0.011 0.905 1 0.000 0.011 0.799 1 
0.027 0.794 0.516 0.023 0.027 0.991 1 0.022 0.027 0.954 1 
0.053 0.925 0.676 0.046 0.053 1 1 0.046 0.053 0.997 1 
0.011 0.140 0.025 0.009 0.011 0.522 0.193 0.009 0.011 0.591 0.432 
0.006 0.205 0.059 0.023 0.027 0.617 0.292 0.023 0.026 0.733 0.552 
0.054 0.274 0.107 0.046 0.053 0.682 0.389 0.046 0.052 0.822 0.653 
0.010 0.127 0.072 0.010 0.010 0.197 0.295 0.010 0.010 0.168 0.438 
0.05 0.187 0.130 0.025 0.026 0.291 0.378 0.025 0.025 0.329 0.510 
0.050 0.255 0.199 0.049 0.050 0.393 0.454 0.050 0.051 0.487 0.575 
0.011 0.576 0.472 0.010 0.010 0.891 0.982 0.011 0.010 0.677 0.995 
0.006 0.770 0.624 0.026 0.026 0.979 0.992 0.025 0.025 0.920 0.998 
0.0581 0.898 0.735 0.050 0.051 0.995 0.996 0.050 0.050 0.985 0.999 
0.010 0.639 0.695 0.010 0.010 0.886 1 0.010 0.010 0.813 1 
0.026 0.840 0.828 0.025 0.026 0.987 1 0.025 0.025 0.973 1 
0.052 0.952 0.906 0.050 0.051 0.999 1 0.050 0.050 0.994 1 
0.010 0.372 0317 0.010 0.012 0.549 0.637 0.010 0.012 0.488 0.668 
0.05 0.503 0.423 0.025 0.029 0.620 0.663 0.025 0.029 0.617 0.701 
0.051 0.595 0.510 0.051 0.055 0.660 0.689 0.051 0.056 0.688 0.731 


R5 测验 长 度 为 60 个 项 目 时 R 和 1 的 一 类 错误 率 和 检测 率 


异常 程度 低 (0.1) 异常 程度 中 (0.25) 异常 程度 高 (0.5) 
ES 检测 率 虚 警 率 检测 率 hA ES 检测 率 
ie R lip R P R " R lip R i: 
0.010 0.930 0.790 0.009 0.011 0.975 1 0.009 0.011 0.868 1 
0.025 0.996 0.904 0.023 0.026 1 1 0.024 0.026 0.998 1 
0.050 1 0.957 0.048 0.052 1 1 0.048 0.051 1 1 
0.0—4 0.298 0.053 0.009 0.010 0.513 0.230 0.009 0.010 0.590 0.484 
0.026 0.366 0.105 0.023 0.026 0.618 0.341 0.023 0.026 0.722 0.605 
0.051 0.426 0.176 0.047 0.051 0.701 0.445 0.048 0.051 0.820 0.702 
0.000 0.275 0.162 0.010 0.010 0.375 0.429 0.010 0.010 0.430 0.655 
0.024 0.343 0.248 0.025 0.025 0.461 0.514 0.025 0.025 0.576 0.721 
0.049 0.414 0.333 0.050 0.050 0.549 0.590 0.050 0.049 0.696 0.775 
0.011 0.968 0.881 0.009 0.011 0.987 0.998 0.009 0.010 0.974 1 
0.026 0.975 0.929 0.023 0.027 0.995 0.999 0.024 0.027 0.994 1 
0.052 0.981 0.956 0.047 0.052 0.999 1 0.048 0.052 0.999 1 
0.010 1 0.999 0.009 0.011 1 1 0.010 0.011 1 1 
0.026 1 1 0.023 0.026 1 1 0.024 0.027 1 1 
0.053 1 1 0.047 0.052 1 1 0.048 0.052 1 1 
0.011 0.602 0.563 0.010 0.011 0.660 0.683 0.010 0.013 0.658 0.756 
0.026 0.625 0.612 0.025 0.028 0.679 0.710 0.026 0.030 0.724 0.776 
0.052 0.645 0.649 0.053 0.055 0.703 0.736 0.053 0.057 0.755 0.791 
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表 6 测验 长 度 为 80 个 项 目 时 R 和 1, 的 一 类 错误 率 和 检测 率 
a eee 异常 程度 低 (0.1) 异常 程度 中 (0.25) 异常 程度 高 (0.5) 
"m 虚 警 率 检测 率 hi Es 检测 率 hi Es 检测 率 
R R lip R m R b R i5 R E 
gii 0.01 0.010 0.011 1 0.963 0.009 0.011 0.985 1 0.009 0.011 0.985 1 
0.025 0.024 0.027 1 0.986 0.024 0.027 1 1 0.024 0.007 1 Í 
0.05 0.048 0.052 1 0.995 0.047 0.053 1 1 0.047 0.053 1 1 
幸运 0.01 0.009 0.011 0.316 0.082 0.010 0.011 0.504 0.284 0.010 0.011 0.620 0.677 
猜测 0.025 0.024 0.026 0.400 0.148 0.024 0.026 0.639 0.404 0.024 0.027 0.780 0.776 
0.05 0.048 0.052 0.490 0.227 0.048 0.052 0.749 0.515 0.048 0.053 0.889 0.844 
随机 0.01 0.010 0.010 0.178 0.133 0.010 0.010 0.242 0.406 0.010 0.010 0.195 0.561 
作答 0.025 0.005 0.025 0.250 0.207 0.025 0.025 0.344 0.481 0.025 0.024 0.387 0.625 
0.05 0.050 0.050 0.325 0.288 0.050 0.050 0.450 0.548 0.049 0.049 0.562 0.683 
粗心 0.01 0.009 0.011 0.962 0.912 0.009 0.011 0.954 1 0.009 0.011 0.797 1 
0.025 0.03 0.027 0.991 0.953 0.023 0.027 0.996 1 0.004 0.027 0.980 1 
0.05 0.046 0.053 0.997 0.975 0.046 0.053 1 1 0.047 0.052 0.999 1 
创造 性 0.01 0.009 0.011 0.999 0.995 0.009 0.011 0.960 1 0.009 0.011 0.956 1 
作答 0.025 0.023 0.026 1 0.999 0.023 0.027 0.999 1 0.023 0.027 0.999 1 
0.05 0.047 0.053 1 1 0.046 0.053 1 1 0.046 0.053 1 1 
混合 0.01 0.010 0.011 0.600 0.595 0.010 0.012 0.589 0.677 0.010 0.014 0.568 0.724 
0.025 0.005 0.026 0.616 0.623 0.025 0.029 0.683 0.707 0.026 0.032 0.644 0.752 
0.05 0.051 0.053 0.635 0.651 0.052 0.055 0.673 0.733 0.053 0.060 0.704 0.775 


党 行为 的 检验 力 平均 高 出 1,,8.5%; 当 测 验 长 度 达 
到 80 时 ， 低 异常 程度 时 , R 对 各 类 异常 行为 的 检验 
力 平均 高 出 15.7% 可 以 看 出 ， 随 者 测验 长 度 的 增 
加 ， 低 异常 程度 时 ，R 对 各 类 异常 行为 的 检测 率 与 
1 的 差距 在 变 小 。 在 中 和 高 异常 程度 下 ,两 种 统计 
量 的 平均 检测 率 相当 接近 , 一 些 情况 下 , R 略 占 优 。 

男 一 方面 ,两 种 统计 量 对 于 不 同类 型 异常 作答 
模式 表现 出 了 不 同 的 检测 率 ， 比 如 都 对 检测 创造 性 
作答 和 作弊 的 表现 较 好 , 通常 都 在 90% 以 上 , 不 同 
HJ Ae FE VE BE A ie EE P, L, PERE ST Ro 
EE is PERE EF, LQ 会 稍微 领先 , 这 是 因为 虽 
然 RR 具 有 对 异常 高 能 力 的 敏感 性 , 但 也 缺乏 对 异常 
程度 变化 的 稳健 性 。 男 外 ,它们 对 于 探测 其 它 类 型 
异常 行为 的 检测 力 相 对 不 高 ,这 是 因为 作 潍 和 创造 
性 作答 属于 较为 极端 的 异常 类 型 ， 理论 较 容易 被 检 
测 出 ， 而 其 他 类 型 迷惑 性 较 高 ， 相 对 更 难 发 现 。 并 
且 两 种 统计 量 体 现 出 了 一 些 共同 的 趋势 ， 比 如 检测 
率 会 随 着 异常 题目 畴 盖 率 的 提高 而 提高 ， 也 会 随 痢 
测验 长 度 的 增加 而 提高 。 

与 此 同时 , 我 们 还 将 1 与 R 在 检测 异常 行为 被 
TAY) ROC 曲线 下 面积 (area under curve, AUC) 作 为 
PFS 的 一 种 综合 评价 指标 。 因 为 AUC 不 依赖 于 固 
定 阐 值 ， 表示 了 统计 量 的 总 体检 测 能 力 ， 其 值 越 接 


近 1, 说 明 该 检测 方法 的 性 能 就 越 好 。 通 过 比较 R 
与 1 在 多 种 情境 下 的 AUC fti, 可 以 用 来 评价 统计 
量 的 性 能 。 实 验 结果 如 表 7 所 示 。 

为 了 更 好 地 比较 R 与 加 之 间 检 测 效能 的 差异 ， 
我 们 将 二 者 的 输出 结果 做 差 , 图 3 中 纵 坐 标 表 示 二 
者 检测 率 之 间 的 差 值 ， 图 4 中 纵 坐 标 表示 二 者 AUC 
之 间 的 差 值 。 由 于 R 和 ,的 检测 率 在 不 同 测验 长 
度 条 件 下 趋势 较为 一 致 ， 因 此 我 们 仅 选 取 了 测验 长 
度 为 20 个 项 目的 条 件 下 二 者 之 间 的 差 值 作 图 。 

从 图 3 中 可 以 发 现 , 在 异常 程度 较 低 时 ， 几 乎 
所 有 条 件 下 尺 的 检测 率 均 高 于 如 ， 而 在 异常 类 型 为 
幸运 猜测 时 ,R 的 检测 率 全 面 高 于 jw。 这 与 前 文中 
对 R 的 分 析 结 果 基 本 一 致 ,但 随 着 异常 程度 的 增加 ， 
有 逐渐 占据 优势 ,此 时 R 的 检测 率 接近 或 低 于 1， 
这 也 体现 了 相 较 于 Lp, R 更 容易 受到 掩蔽 效应 变化 
种 来 的 有 影响。 需要 注意 的 是 , 虽然 绝 大 部 分 异常 程 
度 较 低 情况 下 , R 相 较 于 ji 拥有 更 大 的 优势 , 但 在 
测验 长 度 较 大 时 (测验 包含 60, 80 个 项 目 ), 混合 异 
常 类 型 情况 下 R 的 检测 率 会 略 低 于 1,, ,在 测验 长 度 
较 小 时 (测验 包含 20, 40 个 项 目 ),R 统 计量 在 幸运 猜 
测 、 随 机 作答 和 粗心 的 异常 类 型 下 ,检测 率 会 高 于 
1,。 而 在 其 他 情况 下 , R 统计 量 的 检测 率 会 接近 或 略 
低 于 1zp。 
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m 04 —e a1% | 04 
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y 02 K- 02 
z 04 i: 01 
二 zi 
i -0.1 = -0.1 
; —0.2 0.2 
"i -0.3 ip -0.3 
y -0.4 m -04 
-0.5 -0.5 
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0.5 粗心 0.5 
E 0.4 0.4 
ia 
A 0 gy 0.3 
$ . N 0.2 
= 01 X 0.1 
& 一 0. e -01 
M -0.2 x 02 
—0. 局 一 0.3 
T -04 IP -04 
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对 于 另 一 评价 指标 AUC， 从 图 4 可 以 发 现 ， 除 
靖 行 为 类 型 为 随机 作答 ,异常 程度 为 中 高 时 ， 
Wi ww 
Se ee ee be 
的 综合 性 能 , 不 受 一 类 错误 率 设 定 的 限制 ,这 说 明 
R 的 综合 检测 效果 总 体 上 好 于 Lp, 特别 是 在 实验 条 
件 为 幸运 猜测 这 种 典型 的 异常 高 能 力 表现 的 情况 
F, RAY AUC 明显 高 于 Ls. 


25% 50% 
—e— a= 1% 
— = ~a=2.5% 
- 4 - a=5% 
异常 覆盖 率 
创造 性 作答 
—e— 0 一 1% 


— = — a=2.5% 


异常 覆盖 率 
图 3 R 和 在 测验 长 度 为 20 个 项 目 时 检测 率 的 差 值 
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表 7 R 和 有 的 AUC fü 
pre eer M=20 M=40 M=60 M-80 
R lip R 1,, ly R b 
(FAE 低 (0.1) 0.979 0.921 0.986 0.937 0.997 0.989 0.999 0.996 
中 (0.25) 0.987 0.995 0.996 0.998 0.997 0.998 0.998 0.998 
高 (0.5) 0.989 0.998 0.994 0.998 0.995 0.998 0.997 0.998 
幸运 猜测 低 (0.1) 0.643 0.598 0.689 0.610 0.771 0.669 0.828 0.709 
中 (0.25) 0.775 0.704 0.891 0.795 0.919 0.829 0.940 0.860 
高 (0.5) 0.888 0.827 0.961 0.908 0.964 0.925 0.979 0.962 
随机 作答 低 (0.1) 0.696 0.649 0.699 0.671 0.780 0.752 0.752 0.724 
中 (0.25) 0.756 0.736 0.780 0.800 0.848 0.861 0.825 0.842 
高 (0.5) 0.807 0.834 0.808 0.846 0.902 0.927 0.867 0.898 
粗心 低 (0.1) 0.973 0.930 0.979 0.940 0.996 0.988 0.998 0.993 
中 (0.25) 0.993 0.989 0.996 0.997 0.999 0.998 0.998 0.998 
高 (0.5) 0.990 0.998 0.990 0.998 0.998 0.998 0.994 0.998 
创造 性 作答 低 (0.1) 0.997 0.985 0.987 0.980 0.999 0.998 0.999 0.998 
中 (0.25) 0.994 0.998 0.996 0.998 0.999 0.998 0.997 0.998 
高 (0.5) 0.991 0.998 0.993 0.998 0.998 0.998 0.997 0.998 
混合 低 (0.1) 0.827 0.794 0.824 0.803 0.845 0.837 0.846 0.838 
中 (0.25) 0.854 0.849 0.854 0.859 0.872 0.877 0.873 0.877 
高 (0.5) 0.866 0.870 0.865 0.876 0.885 0.891 0.880 0.888 
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5 实证 研究 
为 了 探究 R 在 实际 研究 中 的 应 用 , 我 们 使 用 的 


数据 来 自 1994 年 到 1995 年 的 美国 


青少年 健康 纵 癌 


WFA (national longitudinal study of adolescent health, 


NLSAH), iX 


是 一 项 针对 7-12 年 级 青 


少年 的 教育 和 健 


康 相关 人 研究 (Harris & Udry, 2010),， 本 研究 所 使 用 的 
数据 集 可 以 从 https://www.icpsr.umich.edu/icpsrweb/ 
ICPSR/studies/21600/datadocumentation 获得 。Yu 
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和 Cheng (2019) 对 该 数据 进行 了 探索 性 因素 分 析 ， 
结果 支持 该 问卷 仅 考 查 一 个 维度 的 假设 , 该 数据 中 
包含 19 个 用 于 测量 被 试 情绪 状态 的 项 目 ， 以 4 等 级 
李 克 特 量 表 的 形式 呈现 。 被 试 需要 在 4 个 选项 中 选 
取 最 符合 自己 过 去 一 周 内 状态 的 描述 , 分 别 编码 为 
0, 1, 2, 3. 由 于 几乎 没有 被 试 选取 类 别 4， 即 大 多 数 
时 候 符合 或 总 是 符合 , 所 以 类 别 3 和 类 别 4 合并 为 
TTS 

TE xe HAP TERA 97 名 被 试 后 ,将 余 
下 的 6457 名 被 试 的 数据 用 作 分 析 。 

步骤 一 , 我 们 使 用 PARSCALE 4.1 软件 工具 ， 
以 GRM 模型 对 作答 数据 进行 拟 合 ， 目 的 是 为 得 到 
19 个 项 目的 项 目 参 数 。 鉴 于 已 将 类 别 3、 类 别 4 合 
并 为 一 个 类 别 , 所 以 最 终 存在 3 个 选项 类 别 , 也 即 
每 个 项 目 中 存在 2 个 项 目 难 度 参 数 (b,b,) 和 1 个 区 
分 度 参 数 (a)， 拟 合 结果 如 表 8 所 示 。 

步骤 二 中 , 前 文 已 经 提 到 ， 要 使 用 R 和 L, 需 


表 8 全 国 青 少年 健康 纵向 研究 (1994~1995) 拟 合 GRM 
模型 项 目 参 数 
题 号 a b, b; 
0.859 0.393 2.199 
0.655 0.668 2.474 
0.889 0.741 2.547 
0.499 —0.778 1.028 
—0.345 1.461 
1.136 0.272 2.078 
0.813 -0.211 1.595 
0.503 -1.028 0.778 
0.917 1.424 3.230 
0.946 2.752 
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BEE ju FIL IE S AE BIA OC, 来 获得 特定 项 目 
条 件 下 的 分 布 ， 以 此 来 确定 临界 值 。 在 软件 Matlab 
2020a 中 模拟 生成 10000 名 能 力 服从 标准 正 态 分 布 
的 被 试 (6457 名 考生 的 能 力 接 近 正 态 分 布 , 均值 为 
—0.0003, 标准 差 0.9222), 让 这 批 被 试 按照 GRM 的 
作答 概率 进行 作答 模拟 , 计算 这 10000 名 被 试 的 R 
和 1。 为 了 使 实验 条 件 接近 真实 情况 ,计算 零 分 布 
时 所 使 用 的 被 试 能 力 参 数 均 为 估计 值 。 根 据 前 文 的 
人 研究 结果 ,选取 5% 的 一 类 错误 率 截 断 点 ， 可 以 做 
到 控制 一 类 错误 率 较 小 的 情况 下 ,获得 尽 可 能 高 的 
检测 率 。R 和 1, 的 分 布 如 图 5 所 示 。R 在 该 分 布下 
的 第 95 百 分 位 数 为 98.49, 1 在 该 分 布下 的 第 5 H 
分 位 数 为 -1.23。 

步骤 三 , 计算 原始 数据 中 6457 名 被 试 的 RR 和 
1,,， 以 和 临界 值 进行 比较 , 来 判断 被 试 是 否 存在 寞 
常 行为 。 经 过 比较 得 到 , 6457 名 被 试 中 , REd 
出 的 异常 行为 被 坛 有 423 人 ， 占 比 6.6%， 由 1, 标记 
出 的 异常 行为 被 坛 有 562 A, 占 比 8.7%， 同 时 违反 
R 和 1, 判定 标准 的 被 试 有 253 人 。 由 于 实证 研究 中 ， 
被 试 是 否 真 实 存 在 异常 行为 是 未 知 的 ， 因 此 无 法 计 
算 虚 警 率 以 及 检测 率 。 考 虑 到 模拟 人 研究 的 结 末 显示 ， 
L, 3 dS FARR RECA ay, 即 更 容易 将 被 试 判 断 为 
异常 ， 所 以 本 人 研究 中 由 Ly 标记 出 的 异常 行为 被 试 
数量 相对 较 多 也 符合 预期 。 

为 了 更 一 步 考 察 两 个 统计 量 的 表现 ,我 们 对 被 
检测 出 的 考生 的 作答 进行 分 析 。 分 别 选取 了 三 类 根 
据 统 计量 标记 为 异常 的 被 试 共 15 人 的 作答 模式 ， 
如 表 9 所 示 。 

可 以 发 现 : (1) 同 时 被 两 种 统计 量 标记 异常 的 被 
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图 5 美国 青少年 健康 纵向 研究 (1994~1995) 模 拟 10000 名 被 试 的 R 和 lp 2) 


表 9 标记 为 异常 的 被 试 作答 模式 


类 型 ” 被 试 序号 作答 向 量 
共同 15 (2,1,0,0,0,0,0,0,0,0,0,2,0,0,2,0,0,0,0) 
23 (0,1,0,2,1,0,0,1,2,0,2,2,1,0,2,2,2,0,2) 
48 (2:0(2/21:0003:3.121:2:2:5.:3:.9 0,2) 
49 (1,0,0,2,0,0,0,0,0,0,0,0,0,0,0,1,0,0,2) 
50 (2,2,2,0,2,2,2,1,0,0,1,2,0,0,1,0,0,0,0) 
R 43 (0,0,2,2,0,0,1,1,0,1,1,0,0,0,0,0,0,1,0) 
45 (0,0,0,2,1,2,0,0,0,1,0,0,0,0,0,1,0,0,0) 
99 (1,0,0,1,0,1,1,0,0,2,1,2,0,0,0,0,1,1,0) 
108 (0,0,0,1,0,0,0,2,0,0,1,0,0,0,2,2,0,0,0) 
114 (0,2,0,0,1,0,0,0,0,0,0,0,0,0,2,0,0,0,0) 
E 6 (1,0,0,1,2,0,2,0,1,0,2,1,0,0,1,0,1,0,1) 
36 (0,0,2,2,1,2,0,2,1,0,2,1,2,0,2,1,0,0,0) 
52 (1,0,2,2,2,0,2,0,1,2,2,1,2,0,2,2,2,1,0) 
55 (2,2,2,1,2,2,1,2,0,2,1,0,2,0815330, 1,0) 
101 (0,1,0,1,0,2,1,2,1,2,2,0,1,0,2, 1, 1,1,1) 


注 : “共同 ”表示 同时 被 R 和 Lp MIC AE, “RAAB DUC R ERE 
为 异常 ,“1,” 表 示 仪 被 ls 标记 为 异常 


W, 都 具有 较为 明显 的 异常 状况 ,得 分 较为 极端 ， 
如 第 15、49 号 被 试 ， 其 佑 计 能 力 较 低 ,然而 他 们 都 
在 不 止 一 个 项 目 上 作答 为 2, 不 符合 低能 力 者 的 正 
常 作答 模 式 。 再 如 第 48 号 被 试 ， 其 在 大 量 项 目 上 作 
答 为 2, 估计 能 力 应 该 偏 高 , 但 是 却 在 第 2、7、18 
题 上 作答 为 0, 也 同样 不 符合 高 能 力 者 应 有 的 作答 
模式 ; (2) 仅 被 尺 标 记 的 异常 被 试 群体 ， 具有 较为 明 
显 的 特点 ， 即 作答 中 包含 大 量 的 0,， 这 说 明 这 部 分 
被 试 以 低能 力 者 居多 , 但 是 却 能 在 少数 项 目 上 获得 
2， 属 于 异常 高 能 力 表现 。R “专注 ?于 将 这 部 分 被 试 
筛选 出 来 ,也 与 前 文中 介绍 的 R 的 特点 相 一 致 ; (3) 
对 于 仅 被 j 标记 的 被 试 , 他们 的 作答 结果 较为 “ 均 
匀 ”， 这 可 以 理解 为 不 同 于 R 对 低能 力 者 的 异常 高 
能 力 表 现 的 特异 性 ,1,, YAS [n] SE AY SS TUR VI E i 
面 更 广 。 


6 讨论 和 未 来 的 研究 方 回 


本 文 提出 了 一 种 基于 残 差 的 个 人 拟 合 统计 量 
R,， 其 在 检测 低能 力 被 试 获得 异常 高 能 力 表现 方面 
具有 一 定 的 优势 。 在 多 级 计 分 模型 的 背景 下 ， 比 较 
T RW 1 的 经 验 分 布 (通常 REEMS, lp 
WU 5& BU fit m ASP 4H), 随 着 测验 长 度 的 增加 ， 二 者 
分 布 的 偏 度 逐 渐 降 低 。 

在 模拟 研究 中 , 设置 不 同 的 一 类 错误 率 ， 获 得 
R 和 ,的 经 验 临 界 值 ， 用 以 区 分 正常 被 试 和 存在 异 
第 的 被 试 。 通过 模拟 被 试 在 测验 中 不 同 程 度 以 及 不 
同类 型 的 异常 作答 行为 , 使 用 R 和 L,, 计算 比较 被 
试 的 个 人 拟 合 指 标 和 临界 值 的 相对 位 置 ， 来 判断 被 
试 是 否 异常 ， 用 检测 率 和 AUC HEN RA 1, 检测 异 
常 被 试 的 指标 。 需 要 注意 的 是 ， 尽管 研究 2 中 列举 
了 3 种 大 小 的 一 类 错误 率 (0.01, 0.025, 0.05) 及 其 对 
应 的 检测 率 , 但 在 实际 应 用 中 ,我们 需要 进行 权衡 ， 
力求 控制 一 类 错误 率 的 情况 下 ， 尽 可 能 提高 检测 率 ， 
研究 结果 显示 ,选取 0.05 的 一 类 错误 率 最 为 合适 。 
因此 , 我 们 着 重 讨论 了 0.05 一 类 错误 率 水 平 下 二 者 
检测 率 的 差异 。 研究 结果 显示 : 中 低 异 常 程度 时 ( 即 
异常 测验 行为 履 盖 的 项 目 数 较 低 ), R 相 对 1, 拥 有 更 
好 的 检测 效果 ,特别 是 在 异常 行为 类 型 为 幸运 猜测 
(低能 力 被 坛 有 较 大 概率 获得 高 分 ) 时 , R 的 检测 效 
采 相 较 于 1 具有 显著 优势 ， 这 与 理论 分 析 中 R 具 备 
异常 高 能 力 敏感 性 的 特点 相 一 致 ; 而 在 其 他 条 件 下 ， 
二 者 则 较为 接近 , 或 p KEF Re。 考虑 到 1, 在 同 条 
件 下 的 实际 一 类 错误 率 通 常会 略 高 于 R， 这 将 导致 
其 检测 率 略 微 地 升 高 。 同 理 , 个 人 拟 合 指标 的 一 类 
错误 率 在 模拟 人 研究 中 通常 存在 一 定 的 膨胀 , 理论 检 
测 率 应 当 略 小 于 表格 所 展示 的 值 。 对 于 不 涉及 一 类 
错误 率 的 AUC 指标 , R 的 优势 会 更 加 地 明显 。 

在 实际 测验 情景 中 , R 具有 较 高 的 应 用 价值 ， 


1134 心 理 


这 是 因为 在 大 部 分 选拔 测试 中 ， 低 能 力 者 更 倾向 于 
主动 产生 异常 作答 行为 ,来 获得 与 高 测验 成 绩 相 挂 
钓 的 切 届 利益 ， 其 行为 通常 会 对 测验 造成 损害 ， 如 
VE BEAT ON FER tee; 相 比 之 下 , 高 能 力 者 
的 异常 作答 行为 偏 问 被 动 ， 危害 性 也 相对 较 低 。 
Rupp (2013) 的 文献 中 ,系统 地 回 硕 了 前 人 关于 异 
稼 测验 行为 的 研究 ， 其 中 低能 力 者 表现 出 的 作 束 和 
青 测 行为 相对 更 受到 人 研究 者 的 关注 ， 这 也 说 明 作 潍 
和 猜测 行为 是 众多 测验 异 和 常 行为 中 影 啊 较 为 广泛 ， 
研究 者 迫切 需要 解决 的 问题 。 实 际 使 用 当中 ,由 于 
个 人 拟 合 统计 量 的 有 效 性 依赖 于 项 目 参 数 ， 当 项 目 
参数 未 知 时 ,在 包含 “异常 作答 数据 ”的 基础 上 进行 
的 参数 估计 会 产生 “遮蔽 效应 ” 因此 这 种 情况 下 最 
好 对 数据 进行 适当 的 处 理 ， 比 如 考虑 稳健 的 参数 估 
计 方 法 (Cooperman et al，2021) 或 者 进行 数据 清理 
(Hong et aL, 2020). JH, 考虑 到 R 的 特性 ， 可 
以 将 R 与 其 他 统计 量 结合 使 用 ,以 发 挥 最 好 的 效 
R, 


本 文 在 5 级 计 分 的 背景 下 进行 了 模拟 实验 , 在 
实证 研究 部 分 基于 已 知 项 目 参 数 在 3 级 计 分 下 进行 
了 模拟 实验 ,其 结果 和 5 级 计 分 下 基本 一 致 。 在 未 
来 可 以 考虑 在 更 多 其 他 等 级 计 分 的 情况 下 进行 研 
究 验 证 。 为 外 ,由 于 R 使 用 的 是 经 验 临界 值 ， 在 一 
定 程 度 上 会 影响 它 的 使 用 。 未 来 的 研究 方向 可 以 是 
在 R 的 基础 上 ,对 其 进行 拓展 ,得 到 其 标准 化 的 形 
XX, 使 其 分 布 为 正 态 分 布 或 渐进 正 态 分 布 , 临界 值 
的 选取 就 不 必 依赖 于 特定 的 测验 项 目 参 数 , 省 去 获 
取 临 界 值 的 步骤 ; 或 是 在 残 差 处 理 中 进行 改进 , 使 
其 保留 初步 分 辨 异常 测验 行为 类 型 的 信息 ; 又 或 者 
对 RR 进行 拓展 , 使 其 适用 于 更 为 广泛 的 IRT 模型 。 
最 后 ,本 人 研究 中 未 涉及 项 目 参数 对 于 两 种 统计 量 的 
影响 ,为 了 考虑 更 为 广泛 的 实际 应 用 场景 , 将 项 日 
参数 的 估计 误差 纳入 考虑 也 是 未 来 需要 进一步 次 
入 考虑 的 问题 。 
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Abstract 

Tests are widely used in educational measurement and psychometrics, and the examinee’s aberrant 
responses will affect the estimation of their abilities. These examinees with aberrant responses should not be 
treated with conventional methods, the important thing is to accurately screen them out of the normal group. To 
achieve this, a common method is to construct person-fit statistics to detect whether the response patterns fit 
their estimated abilities. 

In this study, a residual-based person-fit statistic R was proposed, which can be applied to both 
dichotomous or polytomous IRT models. The construction of R is based on a weighted residual between the 
observed response and the expected response. By accumulating the weighted residuals, the goodness of fit can 
be calculated and compared with a specific critical value to determine whether an examinee is aberrant or not. 
Given that tests with polytomous items can provide more information, polytomously scored items are being 
increasingly popular in educational measurement and psychometrics. The ability of R statistic to detect aberrant 
response patterns under the graded response model was mainly considered in this article. 

An existing polytomous person-ft statistic l, was also introduced in its outstanding standardized form and 
superior power. In the first study, a simulation study was conducted to generate the empirical distribution of R 
statistic and [,,. R statistic is an accumulation of weighted residuals, showing a positive skew distribution; [,, 
shows a negative skew distribution when the test is less than 80 items. Both of them differ from the standard 
normal distribution, It is necessary to set critical value according to the type 1 error, using it to distinguish 
whether each respondent's response pattern is fitted. In the second study, examinees with different aberrant 
behaviors (e.g., Cheaters, Lucky guessers, Random respondents, Careless respondents, Creative respondents and 
Mixed) under different test length conditions were simulated, and the detection rate as well as area under curve 
(AUC) were used to compare the effectiveness of the two person-fit statistics. The results show that the R 
statistic has a better detection rate than l, when the aberrant behavior affects only a few items or the aberrant 
behavior is cheating or guessing. When the aberrant behavior covers plenty of items, l, is slightly better than R 
statistic. Then, an empirical study was also conducted to show the power of R statistic. 

Both of the R statistic and the l, have their own pros and cons, so we may combine them in the future 
person-fit studies. The R statistic has a better detection rate under certain conditions compared to the l;p, 
especially when cheating and lucky guessing happened. Considering that cheating and guessing behaviors of 
low-ability examinees are more preferred in many aberrant test behaviors, the R statistic is worthy of further 
research and exploration in real-world applications. 

Key words polytomous items, item response theory, residual-based person-fit statistic, aberrant detection, 
polytomous item response models 


